大规模数据集相关论文
针对基于密度的噪声应用空间聚类算法(density based spatial clustering of applications with noise,DBSCAN)计算复杂度较高以及无......
通过协同求解多个概念漂移问题并充分挖掘相关概念漂移问题中蕴含的有效信息,共享矢量链支持向量机(Shared Vector Chain Supporte......
由于高性能计算和大规模分布式数据应用需要对输入/输出数据集进行大量共享式并发访问,本文提出并实现了LDDSS(Large-scaled Datase......
搜索引擎的出现帮助用户在纷繁杂乱的互联网信息中寻找相关的信息,因此检索结果的排序是至关重要的。作为新兴信息检索技术的排序学......
随着大数据时代的来临以及数据集容量的迅速增长,基于并行/分布式计算的频繁模式挖掘相比受内存和节点限制的传统技术在处理海量数......
学位
近年来,随着数据收集与存储技术的提高,人们收集到的数据量呈指数速度增长,传统的离群点检测方法在处理大规模数据集时已开始表现出极......
针对目前眼动跟踪方法难以适用于智能手机、平板电脑等便携式设备的问题,提出一种基于大规模数据集的眼动跟踪方法。首先,通过众包......
相关向量机(Relevance Vector Machine,RVM)是一种基于稀疏贝叶斯理论提出的机器学习算法,它的主要宗旨在于拟合目标数据进行分类......
谱聚类算法以谱图理论为基础,可以作为一种图论的分割方法,由于其强大的数学理论基础和广泛适用性,是目前国际上模式识别等领域的......
离群点检测在数据处理中具有重要研究意义,其检测方法大致可以分为基于统计、基于距离、基于密度和基于聚类的方法。为了及时掌握......
在大数据时代背景下,人们在生物、气象、交通、经济、医学等众多领域中均面临着分析处理各种纷繁复杂的数据,它们呈现出规模大、维数......
传统机器学习的方法是以假设样本集趋于无限为前提的,但实际问题中样本集都是有限的。Vapnik等人针对小样本提出了统计学习理论(St......
聚类分析是无监督模式分类的一个重要组成部分,也成为现代数据分析中越来越重要的一个工具。初始条件、相似性准则和聚类准则的不同......
随着信息技术的发展,各行各业都在应用这一技术,这样一来就使很多政府部门与企业等出现了很多数据,但以往的查询方法和统计技术只......
随着现实生活中数据集规模的不断增大,设计有效的分类算法势在必行。支持向量机(Support vector machine,SVM)是一种公认的性能较......
在研究柔性作业车间调度问题(FJSP)中为模拟实际大型生产车间的柔性作业车间调度情景,设计了基于传统基准实例的大规模FJSP数据集......
LOF(Local Outlier Factor)算法是常用的离群点检测算法,但是该算法在面对大规模数据集时往往需要高昂的时空开销,基于固定网格的离......
针对自然界中植物数据规模大且分布不平衡导致的识别困难的问题,提出一种基于显著特征和全局特征融合的植物识别方法。通过多层特......
数据挖掘算法中的支持向量机算法,在通过若干学者的改进研究后,有一种改进算法即序列最小化算法主要应用于小样本数据集的分类,且......
针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径......
针对分类属性数据,基于信息熵,提出一种度量特征重要程度的定义,结合聚类分析,提出一种无指导的特征选择方法.该方法时间复杂度与......
首先,基于每次迭代计算距离当前球心最远的两个点,提出一种求解n维空间中m个点的最小闭包球问题的(1+ε)-近似算法。对于ε∈(0,1),建立......
针对支撑向量机(Support vector machine,SVM)在大规模数据的问题,提出了一种基于模糊c-均值聚类样本选择策略的SVC(SVM for classifi......
为解决大规模数据集的概率密度函数估计问题,提出一种基于无放回抽样的帕尔森窗口集成(sampling without replacement-based Parze......
随着科学技术的发展和互联网的普及,网络给人们带来便利的同时,也给抄袭剽窃提供了机会,现在抄袭检测已经成为一个重要的研究课题......
针对抄袭检测系统的文本对齐模块无法处理大规模数据的问题,提出基于图论的片断合并算法,通过寻找图的连通分支实现了片段合并的优......
针对集成学习方法在处理大规模数据集时具有计算复杂度高、基分类器数目多、分类精度不理想的问题,提出一种基于频繁模式的选择性集......
针对计算最小体积闭包椭球(MVEE)的积极集算法中原初始化策略耗时较多的问题,先给出一个基于样本协方差矩阵构造的新初始化策略,然后......
提出一种大规模数据集求解核主成分的计算方法.首先使用Gram矩阵生成一个Gram-power阵,根据线性代数的理论可知,新形成的矩阵和原先的......
对支持向量分类机中的一些基本方法作出详细地介绍,并进一步研究了方法的求解与改进。并通过对标准支持向量机的改造考虑了一种改进......
支持向量机(SVM)是最为流行的分类工具,但处理大规模的数据集时,需要大量的内存资源和训练时间,通常在大集群并行环境下才能实现。提出......
研究n维空间中m个点的最小闭包球(MEB)问题。通过结合确定并删除内部点的技术到序列最小最优化(SMO)方法中,提出一种近似求解MEB问题的......
提出了一种面向大规模数据集的单类支持向量机(OCSVM)方法.该方法基于k近邻思想得到表征数据集合分布特征的集合内点,并依此生成集合......
基于labels集开展的大规模数据集聚类别,采用SSLOK算法并结合labels集调节聚类过程,这样以来,在有限的主存空间内调换半监督聚类,确保......
先建立求解加权最小闭包球(WMEB)问题的序列最小最优化(SMO)算法的线性收敛性,再结合列生成算法的思想,即每次迭代将与当前球心加......
简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于......
车辆检测是边海防智能监控领域一个重要问题。本文提出了一种基于迁移学习的车辆检测方法,该方法基于改进的YOLO V3网络模型进行车......
针对采用马氏距离进行直推式学习的一类分类椭球学习机,在训练样本点较少而待分类样本点较多的情况中出现的处理较大规模数据集时......
针对SVM分类过程中,处理大规模训练样本集遇到的因样本维度高、消耗大量内存导致分类效率低下的问题,提出基于网格环境的计算策略......
针对大规模数据的分类准确率低且效率下降的问题,提出一种结合X-means聚类的自适应随机子空间组合分类算法。首先使用X-means聚类......
支持向量机(SVM)作为一种有效的模式分类方法,当数据集规模较大时,学习时间长、泛化能力下降;而核向量机(CVM)分类算法的时间复杂......
提出一种图像标注改善方法,利用数据集蕴含的语境相关信息进行标注改善。构建标签相关图和视觉内容相关图,利用正则化框架将标注改......
文章针对具有时间约束的大规模事务数据间关联规则挖掘问题,设计了一种时间约束频繁项目关系矩阵数据结构,并在此基础上,提出了时......
文章针对传统方法在挖掘稠密和稀疏大规模数据集时各自存在的不足,设计了空间压缩效率更高,挖掘效率更好的频繁项目关系矩阵数据结......
为解决大规模基因调控网络构建算法精度不高、计算时间过长的问题,提出一种从基因表达数据分析出发,并行计算和阈值限定相结合的新......
随着数据规模的日益庞大,在大规模数据集中帮助用户定位出数据量可控的代表性信息显得越发重要。虽然Top—kSkyline查询能够找到数......